% !Mode:: "TeX:UTF-8"

\chapter{初等数学自动求解场合下命名实体标注研究}
\section{背景描述}
概率和统计是我国数学高考试卷的重要组成部分之一，其特点主要是贴近生活、情境多变、题型灵活等，题型以应用题为主，因此概率和统计部分的类人自动解题充满挑战性。总体上看，概率和统计部分的类人自动解题的第一步是进行初等数学概率与统计问题的题意自动分析，将标准化试卷形式的概率与统计类问题转化为问题求解工具可以接受的语义形式，即解决做什么的问题，第二步即是解决怎么做的问题，并生成类人的答题过程，具体的研究方案如图\ref{dealerofmath}所示。
\pic [htbp]{初等数学中概率统计题的自动求解引擎}{}{dealerofmath}

可以看到，此引擎完成任务的第一步为题意的形式化表征。形式化表征对于人类解题来说，相当于对题干中关键条件理解内化的过程，也就是“我们是如何理解题目中的已知条件的？”这个问题。 转化为自然语言处理任务，也就是对于计算机的“如何让计算机理解题目中已知条件？”的问题。

\section{问题表征}
自然语言与数学语言是存在差距的，为了能够让计算机理解问题中元素，即将对于计算机本身毫无意义的自然语言字符组成的字符串通过一定的方法转化为用计算机可以识别的数据内容表示的数学语言，我们应设计一种翻译工具完成这一工作。数学语言通常表示的是问题中已知条件元素之间的相关关系和约束条件。不难想象，仅拥有了数学语言表示的题意，便可以让自动求解的工作成为可能。那么为了实现自然语言到数学语言的转换，首先我们的翻译工具应拥有识别题干中最重要的、以自然语言描述的关键条件，即应拥有搜索题目中的元素以及元素之间约束关系的能力。结合上面提到的实体的定义，在这个应用场景下，题目中的元素以及可能的元素约束关系，将是文本中最具有特殊意义也最首要的信息，也就是所谓的命名实体。  

以一个初等数学中概率与统计题目的分层抽样题目为例，其通常为具有一个总体，而总体则有多个总体层组成，并会提供一个样本，而样本则有多个样本层构成，其中样本层中，各个层数量的比例和总体层中各个层数量的比例相同。而题目则会在提供其他数量的情况下，要求解题者根据分层抽样的原理，求出未知的数量。这些命名实体，我们称其为实体组件。让我们以一个题目为例子：

甲、乙两套设备生产同类型产品共4800件，采用分层抽象的方法从中抽取一个容量为80的样本进行质量检测。若样本中有50件产品由甲设备生产，则乙设备生产的产品总数为多少件？

\threelinetable[htbp]{shitizujian}{0.5\textwidth}{lccr}{分层抽样问题的实体组件表}
{ - &实体名称&实体数量&单位\\}
{
总体 & 产品 & 4800 & 件\\
样本 & 样本 & 80 & 件 \\
总体层1 & 甲设备 & ？& 件\\
总体层2 & 乙设备 & ？& 件 \\
样本层1 & 甲设备 & 50 & 件 \\
样本层2 & 乙设备 &  ？ & 件\\
}
{
}

首先我们人力对此题目进行分析得到的实体组件列表如表\ref{shitizujian}所示。考虑解答这道题，于样本实体数量已经给出，再结合样本层1实体数量，可以得到样本层2的实体数量。同时总体和样本之间实体数量比，暗示了总体层各层总量和样本层各层总量的比例。此实体组件表的所有未知量已经解出。此问题实际上也解答完成。

由此我们可以看出，对于一道初等数学概率与统计题分层抽样题，我们可以将其解答过程看成这样的过程：（1）抽取题干中所有的实体组件，并形成表格；（2）抽取题干中明确表示的实体组件之间约束关系；（3）识别题目类型，并根据题目类型补充隐藏的实体组件约束关系；（4）利用前三部的条件对实体组件表进行补充。可以看出，此解答过程的第一步与第二步，都可以看成自然语言处理的命名实体识别的过程，而第三部的工作实际上也依赖于前两步提供的决策支持。至此，我们得知问题表征的重要工作为命名实体识别标注。

\section{标注集合设计}

通过上节的描述，可以看出，对于初等数学的概率统计中分层抽样问题的命名实体，可以分成实体名称、实体数量和单位三种。为了能够实现训练模型、测试模型以及可靠地统计分析识别模型的工作效果。我们应该拥有大量的已经识别完成并人工标记好的语料。为获取这些语料，首先我们要确定我们的命名实体标注方法。

本文使用了B（单词的开头），I（单词的中间），O（单词的结尾）标注方法。结合实体名称，实体数量，和单位三种。最终设计的标注集合如下表\ref{mark1}和表\ref{mark2}所示。

\threelinetable[htbp]{mark1}{0.3\textwidth}{lccr}{分层抽样问题的实体组件表}
{ 标注&含义\\}
{
 B & 当前词为实体的首部\\
I & 当前词为实体的内部\\
E & 当前词为实体的尾部\\
S & 当前词是实体\\
O & 当前词不是实体\\
}
{
}

\threelinetable[htbp]{mark2}{0.3\textwidth}{lccr}{分层抽样问题的实体组件表}
{ 标注&含义\\}
{
NAM & 名字实体\\
NUM & 数字实体\\
UNI & 单位实体\\

}
{
}

根据此种标注集合设计，可以对初等数学中概率统计题进行人工标注，示例如表\ref{exampleofmark1}所示。

\threelinetable[htbp]{exampleofmark1}{0.3\textwidth}{lccr}{分层抽样问题的实体组件表}
{ 字符序列&标注\\}
{
在  & o\\
工  & o\\
厂  & o\\
中 &  o\\
有  & o\\
A   & S-NAM\\
100 & S-NUM\\
件  & S-UNI\\
打  & B-NAM \\
印  & I-NAM\\
机  & E-NAM\\
200 & S-NUM\\
件 & S-UNI\\
C & S-NAM\\
300 & S-NUM\\
件 & S-UNI\\
三 & o\\
种 & o\\
商 & o\\
品 & o\\
}
{
}

\section{本章小结}

本章首先分析得出初等数学概率与统计题的自动求解引擎的第一步应该是计算机对于题目的理解，也就是抽取其中首要信息，并转化为形式化表征。然后在尝试解题的过程中得到了题目中究竟哪些文字才是真正需要的实体组件，由此得出了此应用场景下命名实体识别的具体要求。根据此要求，再结合领域内常见的\citeup{zhouzhihua}标注方法，最终确定了中文命名实体标注集合。
